提供者:刘晓
地址:http://research.google.com/ava/
简介
教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,谷歌blog发布了一个堪比“视频版”ImageNet的数据集-AVA(A Finely Labeled Video Dataset for Human Action Understanding ),旨在教机器理解人的活动。 该数据集以人类为中心进行标注,包含80类动作的 57600 个视频片段,有助于人类行为识别系统的研究。
教机器理解视频中的人的行为是计算机视觉中的一个基本研究问题,对个人视频搜索和发现、运动分析和手势界面等应用十分重要。尽管在过去的几年里,对图像进行分类和在图像中寻找目标对象方面取得了令人兴奋的突破,但识别人类的动作仍然是一个巨大的挑战。这是因为动作的定义比视频中的对象的定义要差,因此很难构造一个精细标记的动作视频数据集。许多基准数据集,例如 UCF101、activitynet 和DeepMind 的 Kinetics,都是采用图像分类的标记方案,在数据集中为每个视频或视频片段分配一个标签,而没有数据集能用于包含多个可能执行不同动作的人的复杂场景。
谷歌上周发布一个新的电影片段数据集,旨在教机器理解人的活动。这个数据集被称为 AVA(atomic visual action),这些视频对人类来说并不是很特别的东西——仅仅是 YouTube 上人们喝水、做饭等等的3秒钟视频片段。但每段视频都与一个文件捆绑在一起,这个文件勾勒了机器学习算法应该观察的人,描述他们的姿势,以及他们是否正在与另一个人或物进行互动。就像指着一只狗狗给一个小孩看,并教他说“狗!”,这个数据集是这类场景的数字版本。
数据集特点
相比其他的动作数据集,AVA数据集有以下这些特点:
以人为中心进行标注:每个动作标签都基于人物本身,而不是一段视频或者剪辑片段。因此,我们能够为不同动作中的各类人加上不同的标签,这一点非常常见。
原子级视觉动作:我们对需要标注的动作进行了合理的时间限制(3秒钟),以确保动作符合人的生理机能,同时有明显的视觉特征。
真实视频作为视觉材料:我们使用不同题材和国家的电影作为AVA的标注材料,进而确保数据库中包含各类型的人类行为。
视频来源中的3秒视觉片段标签,用方框标注出每个动作素材(为确保清晰,每个例子中只出现了一个框。)
为创建 AVA,我们首先从 YouTube 上收集了大量多样化的数据,主要集中在「电影」和「电视」类别,选择来自不同国家的专业演员。我们对每个视频抽取 15 分钟进行分析,并统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。采样遵循保持动作序列的时间顺序这一策略。
接下来,我们为每个 3 秒片段中间帧的人物手动标注边界框。对标注框中的每个人,标注者从预制的原子动作词汇表(80 个类别)中选择适当数量的标签来描述人物动作。这些动作可分为三组:姿势/移动动作、人-物互动和人-人互动。我们对执行动作的所有人进行了全部标注,因此 AVA 的标签频率遵循长尾分布,如下图所示。
AVA 的原子动作标签分布。x 轴所示标签只是词汇表的一部分。
AVA 的独特设计使我们能够获取其他现有数据集中所没有的一些有趣数据。例如,给出大量至少带有两个标签的人物,我们可以判断动作标签的共现模式(co-occurrence pattern)。下图显示 AVA 中共现频率最高的动作对及其共现得分。我们确定的期望模式有:人们边唱歌边弹奏乐器、拥吻等。
AVA 中共现频率最高的动作对。
为评估基于 AVA 数据集的人类动作识别系统的高效性,我们使用一个现有的基线深度学习模型在规模稍小一些的 JHMDB dataset 上取得了具备高竞争性的性能。由于存在可变焦距、背景杂乱、摄影和外观的不同情况,该模型在 JHMDB dataset 上的性能与在 AVA 上准确识别动作的性能(18.4% mAP)相比稍差。这表明,未来 AVA 可以作为开发和评估新的动作识别架构和算法的测试平台。
相关论文
[1] Chunhui Gu, Chen Sun, David A. Ross, Carl Vondrick, Caroline Pantofaru, Yeqing Li, Sudheendra Vijayanarasimhan, George Toderici, Susanna Ricco, Rahul Sukthankar, Cordelia Schmid, Jitendra Malik, AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions, 2017